In recent years, spammers are now trying to obfuscate their intents by introducing hybrid spam e-mail combining both image and text parts, which is more challenging to detect in comparison to e-mails containing text or image only. The motivation behind this research is to design an effective approach filtering out hybrid spam e-mails to avoid situations where traditional text-based or image-baesd only filters fail to detect hybrid spam e-mails. To the best of our knowledge, a few studies have been conducted with the goal of detecting hybrid spam e-mails. Ordinarily, Optical Character Recognition (OCR) technology is used to eliminate the image parts of spam by transforming images into text. However, the research questions are that although OCR scanning is a very successful technique in processing text-and-image hybrid spam, it is not an effective solution for dealing with huge quantities due to the CPU power required and the execution time it takes to scan e-mail files. And the OCR techniques are not always reliable in the transformation processes. To address such problems, we propose new late multi-modal fusion training frameworks for a text-and-image hybrid spam e-mail filtering system compared to the classical early fusion detection frameworks based on the OCR method. Convolutional Neural Network (CNN) and Continuous Bag of Words were implemented to extract features from image and text parts of hybrid spam respectively, whereas generated features were fed to sigmoid layer and Machine Learning based classifiers including Random Forest (RF), Decision Tree (DT), Naive Bayes (NB) and Support Vector Machine (SVM) to determine the e-mail ham or spam.
translated by 谷歌翻译
图像垃圾邮件威胁检测一直是互联网惊人扩展的流行研究领域。这项研究提出了一个可解释的框架,用于使用卷积神经网络(CNN)算法和可解释的人工智能(XAI)算法检测垃圾邮件图像。在这项工作中,我们使用CNN模型分别对图像垃圾邮件进行了分类,而hoc XAI方法包括局部可解释的模型不可思议的解释(Lime)和Shapley添加说明(SHAP),以提供有关黑手盒CNN的决定的解释关于垃圾邮件图像检测的模型。我们在6636图像数据集上训练,然后评估拟议方法的性能,包括垃圾邮件图像和从三个不同的公开电子邮件Corpora收集的垃圾邮件图像和正常图像。实验结果表明,根据不同的性能指标,提出的框架实现了令人满意的检测结果,而独立模型的XAI算法可以为不同模型的决策提供解释,以比较未来的研究。
translated by 谷歌翻译
全身追踪器用于监视和安全目的,例如人跟踪机器人。在中东,统一的人群环境是挑战最新跟踪器的常态。尽管过去文献中记录的跟踪器技术有了很大的改进,但这些跟踪器尚未使用捕获这些环境的数据集进行了培训。在这项工作中,我们在统一的人群环境中开发了一个带有一个特定目标的注释数据集。该数据集是在四种不同的情况下生成的,在四种不同的情况下,目标主要是与人群一起移动,有时会与它们阻塞,而其他时候,相机的目标视图在短时间内被人群阻止。注释后,它用于评估和微调最新的跟踪器。我们的结果表明,与初始预训练的跟踪器相比,基于两个定量评估指标的微调跟踪器在评估数据集上的性能更好。
translated by 谷歌翻译
冠状动脉血管造影(CCTA)易受各种扭曲(例如伪影和噪声)的敏感,这严重损害了心血管疾病的确切诊断。适当的CCTA血管级图像质量评估(CCTA VIQA)算法可用于降低错误诊断的风险。 CCTA VIQA的首要挑战是,冠状动脉的本地部分确定最终质量是很难找到的。为了应对挑战,我们将CCTA VIQA作为多种现实学习(MIL)问题,并利用基于变压器的MIL主链(称为T-MIL),以将沿冠状动脉中心线的多个实例汇总为最终质量。但是,并非所有实例都提供最终质量的信息。有一些质量 - 欧元/负面实例介入确切的质量评估(例如,在实例中仅涵盖背景或冠状动脉的实例是无法识别的)。因此,我们提出了一个基于渐进的增强学习的实例丢弃模块(称为PRID),以逐步删除CCTA VIQA的质量 - 欧尔特尔/否定实例。基于上述两个模块,我们根据端到端优化提出了一个加强的变压器网络(RTN),用于自动CCTA VIQA。广泛的实验结果表明,我们提出的方法实现了现实世界中CCTA数据集的最新性能,超过了以前的MIL方法。
translated by 谷歌翻译
侯马联盟书是中国山西博物馆小镇博物馆的国家宝藏之一。它在研究古老的历史方面具有重要的历史意义。迄今为止,关于霍玛联盟书籍的研究一直留在纸质文件的识别中,这是无法识别和难以显示,学习和宣传的纸质文件。因此,霍玛联盟公认的古代角色的数字化可以有效提高识别古代角色并提供更可靠的技术支持和文本数据的效率。本文提出了一个新的Houma Alliance书籍的新数据库。在数据库中,从原始书籍收藏和人类的模仿写作中收集了297个班级和3,547个Houma Alliance古代手写字符样本。此外,决策级分类器融合策略用于融合三个众所周知的深神网络体系结构,以供古代手写角色识别。实验是在我们的新数据库上执行的。实验结果首先为研究界提供了新数据库的基线结果,然后证明了我们提出的方法的效率。
translated by 谷歌翻译
学习用户序列行为嵌入非常复杂且充满挑战,因为随着时间的推移和用户功能的高尺寸,功能相互作用复杂。最近的新兴基金会模型,例如伯特及其变体,鼓励大量研究人员在该领域进行调查。但是,与自然语言处理(NLP)任务不同,用户行为模型的参数主要来自用户嵌入层,这使得大多数现有作品在训练大规模的通用用户嵌入中失败。此外,从多个下游任务中学到了用户表示,并且过去的研究工作无法解决Seesaw现象。在本文中,我们提出了SuperMoe,这是一个通用框架,旨在从多个任务中获取高质量的用户表示。具体而言,用户行为序列是由MOE Transformer编码的,因此我们可以将模型容量提高到数十亿个参数,甚至可以将模型能力提高到数万亿个参数。为了在跨多个任务学习时处理Seesaw现象,我们使用任务指标设计了新的损失功能。我们在公共数据集和私人现实世界业务方案上进行了广泛的离线实验。我们的方法在最新模型上取得了最佳性能,结果证明了我们框架的有效性。
translated by 谷歌翻译
机器的图像编码(ICM)旨在压缩图像进行AI任务分析,而不是满足人类的看法。学习一种既是一般(用于AI任务)的特征,也是紧凑的(用于压缩)的功能,这对于其成功而言至关重要。在本文中,我们试图通过学习通用功能,同时考虑压缩来开发ICM框架。我们将诸如无所不能功能和相应框架的功能命名为Omni-ICM。考虑到自我监督学习(SSL)提高了特征的概括,我们将其与压缩任务集成到OMNI-ICM框架中,以学习无所不能的功能。但是,在SSL中协调语义建模并在压缩中删除冗余是不平凡的,因此我们通过合作实例区分和熵最小化以自适应掉落的信息来设计新颖的信息过滤(如果)模块,以较弱相关的信息执行AI任务(例如,某些纹理冗余)。与以前的特定解决方案不同,Omni-ICM可以直接基于学习的无能功能的AI任务分析,而无需联合培训或额外的转换。尽管简单而直观,但Omni-ICM在多个基本愿景任务上大大优于现有的传统和基于学习的编解码器。
translated by 谷歌翻译
The three existing dominant network families, i.e., CNNs, Transformers, and MLPs, differ from each other mainly in the ways of fusing spatial contextual information, leaving designing more effective token-mixing mechanisms at the core of backbone architecture development. In this work, we propose an innovative token-mixer, dubbed Active Token Mixer (ATM), to actively incorporate flexible contextual information distributed across different channels from other tokens into the given query token. This fundamental operator actively predicts where to capture useful contexts and learns how to fuse the captured contexts with the query token at channel level. In this way, the spatial range of token-mixing can be expanded to a global scope with limited computational complexity, where the way of token-mixing is reformed. We take ATM as the primary operator and assemble ATMs into a cascade architecture, dubbed ATMNet. Extensive experiments demonstrate that ATMNet is generally applicable and comprehensively surpasses different families of SOTA vision backbones by a clear margin on a broad range of vision tasks, including visual recognition and dense prediction tasks. Code is available at https://github.com/microsoft/ActiveMLP.
translated by 谷歌翻译
在本文中,我们介绍了第一个神经视频编解码器,可以在用于低延迟模式的UVG数据集上的SRGB PSNR方面与最新编码标准H.266 / VVC竞争。现有的神经混合视频编码方法依赖于用于预测的光流或高斯尺度流,这不能支持对不同运动内容的细粒度适应性。为了更具内容 - 自适应预测,我们提出了一种新颖的跨尺度预测模块,实现更有效的运动补偿。具体地,一方面,我们生产参考特征金字塔作为预测源,然后传输利用特征尺度的横级流来控制预测的精度。另一方面,我们将加权预测的机制介绍到具有单个参考帧的预测场景的机制,其中发送交叉尺度权重映射以合成精细预测结果。除了串尺度预测模块之外,我们还提出了一种多级量化策略,这提高了在推理期间没有额外计算惩罚的速率失真性能。我们展示了我们有效的神经视频编解码器(ENVC)对几个常见的基准数据集的令人鼓舞的表现,并详细分析了每个重要组成部分的有效性。
translated by 谷歌翻译
数据增强(DA)已被广泛调查,以便于多项任务中的模型优化。然而,在大多数情况下,对于具有某种概率的每个训练样本随机地对数据增强进行数据增强,这可能会产生内容破坏和视觉模糊。为了消除这一点,在本文中,我们提出了一种有效的方法,将选择,以基于样本内容和网络培训状态选择要以确定性和在线方式增强的样本。具体而言,在每批中,我们首先确定增强比,然后决定是否以这种比率增强每个训练样本。我们将此过程塑造为两步马尔可夫决策过程,并采用分层强化学习(HRL)来学习增强策略。以这种方式,可以有效地缓解选择用于增强的样品在选择样品时的负面影响,并且改善了DA的有效性。广泛的实验表明,我们所提出的选择可以适应许多常用的DA方法,例如混合,切割,自动化等,以及改善图像分类和细粒度图像识别的多个基准数据集中的性能。
translated by 谷歌翻译